
通过打包 Flash Attention 来提升 Hugging Face 训练效率
通过打包 Flash Attention 来提升 Hugging Face 训练效率现在,在 Hugging Face 中,使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容,这要归功于一个 最近的 PR 以及新的 DataCollatorWithFlattening。 它可以在保持收敛质量的同时,将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息!
来自主题: AI资讯
2789 点击 2024-09-18 15:44